Abaixo, você tem nosso velho conhecido histograma de distribuição de notas do exemplo de Hinton.
Se eu pegar uma dessas provas aleatoriamente, qual a chance de pegar uma prova de nota igual a 0?
E qual a chance de pegar uma prova de nota igual a 56?
E a probabilidade de tirar uma nota menor que 40?
Sabemos que um histograma registra a distribuição das frequências de ocorrência de eventos (tirar uma nota x em uma prova é um evento).
A probabilidade de um evento nos diz quantas vezes ele ocorre em n observações.
Essa probabilidade vai de 0 (indicando que nunca ocorre) a 1 (indicando que sempre ocorre). Assim, um evento de probabilidade 0.5 tem 50% de chance de ocorrer.
Podemos representar essas probabilidades em um histograma.
Até agora, vimos histogramas com poucas observações.
Vamos ver o que acontece graficamente quando meu n, isto é, o meu número de observações, é muito maior.
Comecemos coletando informação sobre a altura de 100 homens e anotando os dados em cm.
Informação da amostra que vamos plotar: observações = 100, média 174cm, dp = 6
altura = rnorm(100, 174, 6)E se eu coletar 1000 observações? (bin = 1)
altura = rnorm(1000, 174, 6)E se eu coletar 10.000 observações? (bin = 1)
E se eu coletar 10.000 observações? (bin = 1)
altura = rnorm(10000, 174, 6)E se eu coletar 1.000.000 observações? (bin = 0.1)
E se eu coletar 1.000.000 observações? (bin = 0.1)
altura = rnorm(1000000, 174, 6)Você percebeu que, quanto mais dados eu tenho divididos em intervalos menores, mais o meu histograma se parece com uma curva.
Apesar de esse histograma parecer mais uma curva do que aquele nosso histograma com as notas das provas, ele ainda tem essa propriedade de representar as probabilidades dos valores cuja distribuição representa.
De 1 milhão de homens representadas no histograma, 500 mil disseram ter entre 174 e 205. Qual a probabilidade de eu escolher um dado aleatório na minha amostra e ele ter um valor entre essas medidas?
Portanto, dizemos que a ocorrência dos valores na área destacada tem p = 0.5.
Qual probabilidade é maior: ter entre 1.60 e 1.70 de altura ou ter entre 1.80 e 1.90? Como você pode saber disso apenas olhando o histograma?
No episódio de hoje, vimos que os histogramas são uma maneira de visualizarmos as probabilidades dos valores de uma distribuição. Isso é importante porque os testes de hipóteses consideram a probabilidade de ocorrência de um evento!
Para entendermos um teste de hipóteses e como ele se relaciona com as probabilidades que podem ser calculadas a partir de um histograma, precisamos aprender o que é
uma distribuição normal
um z-score
Você percebeu que indicamos a média e o desvio padrão para criar uma distribuição normal no R? Isso ocorre porque esses são os únicos valores necessários para expressar matematicamente uma distribuição que chamamos de DISTRIBUIÇÃO NORMAL.
Uma das características da distribuição normal é que média, mediana e moda tem o mesmo valor, e a distribuição de dados é simétrica.
Com relação à distribuição de dados, é possível observar que em uma distribuição normal:
Olhando a distribuição abaixo, você consegue ver características da distribuição normal?
Olhando a distribuição abaixo, você consegue ver características da distribuição normal?
Inúmeras medidas dos fenômenos que estudamos parecem ter uma distribuição normal. É por isso que boa parte dos testes estatísticos foram desenvolvidos para lidar com esse tipo de distribuição.
Um dos valores mais informativos para o teste de hipóteses a partir de distribuições normais é o z-score. Vamos ver como ele funciona através de um problema simples.
O problema que segue é emprestado de Hinton (2014)
Uma jovem está pensando em entrar para o time de atletismo de sua escola. Ela precisa escolher um esporte. Suas marcas são as seguintes:
61.20 segundos nos 400 metros
1.35 metros no salto em altura
Você acha que ela consegue entrar para o time? Em qual desses esportes?
Uma medida só é informativa se comparada a outra(s)!
Abaixo, temos o valor da melhor performance da nossa atleta e a média dos atletas da escola para cada esporte.
## atleta esporte medidas
## 1 escola 400m 60.00
## 2 atleta 400m 61.20
## 3 escola salto 1.50
## 4 atleta salto 1.35
Você acha que ela consegue entrar para o time? Em qual desses esportes?
É difícil concluir qual a melhor opção para a nossa atleta porque estamos comparando valores de distribuições diferentes.
O z-score permite comparar medidas de distribiuções diferentes normalizando essas medidas a partir da média e desvio-padrão das distribuições.
Para calculá-lo, basta dividir valor observado menos média pelo desvio-padrão.
Voltemos à nossa atleta e os valores médios do time da escola
## atleta esporte medidas
## 1 escola 400m 60.00
## 2 atleta 400m 61.20
## 3 escola salto 1.50
## 4 atleta salto 1.35
Ela conseguiu descobrir que o desvio-padrão dos 400m é 3, e que o desvio-padrão do salto em altura é 0.15.
Para saber em que esporte ela tem mais chance, precisamos calcular o z-score.
observado.corrida = 61.2
media.corrida = 60
dp.corrida = 3
(observado.corrida - media.corrida)/dp.corrida## [1] 0.4
observado.salto = 1.35
media.salto = 1.5
dp.salto = 0.15
(observado.salto - media.salto)/dp.salto## [1] -1
Eu consigo comparar valores de distribuições diferentes se conseguir normalizá-los de alguma forma.
É isso que o z-score faz.
Para entendermos um pouco melhor porque o z-score é um índice tão importante, estudemos um pouco mais a distribuição normal.
As distribuições normais diferem com relação a sua média e desvio-padrão.
Qual a probabilidade de eu tirar um valor igual ou maior que 80 nas distribuições abaixo?
Você consegue saber se a probabilidade de tirar 80 é alta ou baixa apenas olhando para o histograma. No entanto, quando fazemos testes estatísticos, precisamos de mais do que “olhar o histograma”.
Se plotarmos os z-scores dos valores (em vez dos valores brutos), todas as distribuições ficam iguais à Distribuição normal padrão (m=0, dp=1)!
altura = rnorm(1000000, 174, 6)
z.altura = (altura-mean(altura))/6Se plotarmos os z-scores dos valores (em vez dos valores brutos), todas as distribuições ficam iguais à Distribuição normal padrão (m=0, dp=1)!!
a: média=60, dp=3
b: média=70, dp=5
c: média=80, dp=10
Os z-scores de toda distribuição normal convergem para formar a Distribuição Normal Padrão, uma normal de média = 0 e desvio-padrão = 1.
A chamada tabela da Distribuição Normal Padrão traz a probabilidade acumulada para os z-scores dessa distribuição.
Portanto, ao calcular o z-score de uma observação, podemos ver sua probabilidade acumulada na tabela da Distribuição Normal Padrão (Hinton, Apêndice A1).
Qual a probabilidade de um homem ter até 1,70 de acordo a distribuição do gráfico?
Eu posso calcular o z-score desse valor!
media = 174
dp = 6
observado = 170
z.score = (observado - media)/dp
z.score## [1] -0.6666667
Agora eu posso ver a probabilidade de identificar esse z-score em um distribuição normal padrão uzando a tabela própria para isso (Hinton, Apêndice A1).
Eu faço isso procurando o valor 0.6 na linha e cruzando com 6 (para dar 0.66) na coluna.
Essa tabela, portanto, me dá a probabilidade acumulada de eu tirar um z-score específico.
Você participou de uma corrida de rua em que completou o percurso de 5km em 28 minutos. O tempo de corrida dos participantes apresenta uma distribuição normal com média de 32 minutos e desvio-padrão de 3.5.
Qual a probabilidade de alguém ter feito um tempo menor que o seu?
Qual a probabilidade de alguém ter feito um tempo maior que o seu?
media = 32
dp = 3.5
observado = 28
z.score = (observado - media)/dp
z.score## [1] -1.142857
pnorm(z.score) #a função pnorm retorna a probabilidade acumulada para um valor z## [1] 0.126549
1-pnorm(z.score)## [1] 0.873451
Apenas para visualização
Perceba que, para saber quem fez um tempo menor, você quis saber a probabilidade de estar na cauda inferior, ou lower tail
Seu professor prometeu sortear um livro para os alunos que ficassem no top 10% da sala na prova final. A nota dos alunos apresentou uma distribuição normal, com média 6.5 e desvio-padrão 2. Sua nota foi 8.2.
Você está entre os alunos que participarão do sorteio?
media = 6.5
dp = 2
observado = 8.2
z.score = (observado - media)/dp
pnorm(z.score)## [1] 0.8023375
1- pnorm(z.score)## [1] 0.1976625
pnorm(z.score, lower.tail = FALSE) #estou dizendo que quero saber a probabilidade acumulada a partir da upper-tail. O default do R é assumir lower.tail = TRUE.## [1] 0.1976625
Histograma nos informa a probabilidade de um evento
Se a distribuição é normal, podemos saber a probabilidade acumulada conhecendo o z-score de um valor
Mulheres falam mais que homens
Jovens tem mais facilidade em aprender uma L2
Nos dois casos, estamos comparando populações (mais sobre isso na próxima aula)
Exemplo de Hinton, 2004
Hipótese: ensino intensivo aumenta a inteligência das pessoas
Como medir a VD: teste de QI
Operacionalização: pessoas que tiveram ensino intensivo se sairão melhor em testes de QI
Sabemos que os testes de QI são produzidos para resultarem em scores normalmente distribuídos, com média igual a 100 e desvio-padrão de 15.
Peter afirma que ensino intensivo aumenta o QI em até 30 pontos.
fonte: Hinton (2004)
Problema: eu não tenho como sair testando todo mundo que fez estudo intensivo. O que eu posso fazer é ver se as observações que eu tenho me permitem REJEITAR a hipótese de que elas tem grande probabilidade de terem saído da distribuição de QI para as pessoas em geral.
H0 (ou hipótese nula): não há diferença entre as distribuições
Quando eu faço um teste de hipótese, eu calculo a probabilidade de rejeitar a hipótese nula.
Peter quer mostrar que seu QI muito provavelmente NÃO pertence à população normal, com média de 100 e dp de 15 pontos.
Peter faz um teste de QI e o resultado é 120. Vamos calcular o z-score e a probabilidade de alguém da população comum ter um QI maior que o dele.
observado.qi = 120
media.qi = 100
dp.qi = 15
z.score.qi = (observado.qi - media.qi)/dp.qi
z.score.qi## [1] 1.333333
pnorm(z.score.qi, lower.tail = F)## [1] 0.09121122
A probabilidade de alguém da população normal ter um QI igual ou maior que o de Peter é de 0.091.
Isso é muito ou pouco? Se rejeitarmos a hipótese nula, quais as chances de estarmos rejeitando-a erroneamente?
O limiar que escolhemos para rejeitar a nossa hipótese nula é chamado de Nível de Significância, e representado com a letra grega \(\alpha\).
Dizer que seu \(\alpha\) é de 0.1 significa que há 10% de chance de rejeitar a hipótese nula quando ela não pode ser rejeitada.
Dizer que seu \(\alpha\) é de 0.05 significa que há 5% de chance de rejeitar a hipótese nula quando ela não pode ser rejeitada.
Considerando um \(\alpha\) = 0.05, não podemos rejeitar a hipótese nula* pois p = 0.09.
*Lembrando que a hipótese nula é de que o QI de Peter vem da distribuição de QIs observada para a população em geral.
Quando fazemos um teste de hipótese, estamos nos perguntando qual a probabilidade de rejeitarmos a Hipótese Nula.
Para isso, calculamos a probabilidade de um determinado valor ocorrer em um distribuição.
O z-score é uma maneira de calcular essa probabilidade.
Vimos que conseguimos conhecer uma normal sabendo apenas a sua média e desvio-padrão.
Posso simular conjuntos de n dados distribuídos em uma normal com a função rnorm().
a = rnorm(100, 80, 10) # n = 1000, média = 80, desvio-padrão = 10Para testar a probabilidade de um determinado z-score, podermos usar a função pnorm() e indicar se o teste se repere à upper tail ou lower tail.
pnorm(z-score, lower.tail = F) #probabilidade acumulada a partir da upper tail
pnorm(z-score, lower.tail = T) #probabilidade acumulada a partir da lower tail